Análisis de muestreos geoquímicos de suelos superficiales usando métodos no supervisados de aprendizaje automático como estrategia para la prospección de yacimientos minerales en Perú.

Integrantes:

Diana Urbano

Edinson Fernandez

Daren Rodríguez

Librerias necesarias

Carga de base de datos

Se carga la base de datos limpia

Tipos de datos

Histograma general con todas las variables numericas

La base de datos cuenta con 10 variables informativas, 58 elementos y 11 oxidos mayores.

69 variables de interes (58 elementos y 11 oxidos mayores)

Boxplot para los elementos Au, Hg, Ag, Cu, Zn y Mo

Correlación entre variables

Metodos no supervisados

PCA

Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información

Este método de transformación de variables consiste en hacer cumplir las dos condiciones establecidas previamente, pero teniendo en cuenta únicamente la información de los predictores y no necesariamente la relación de estos con la variable de respuesta. En particular, se debe encontrar los vectores $V_{j}$ y los valores $\lambda_{j}$ que cumplan la siguiente ecuación:

$$S_{x}V_{j}=\lambda_{j}V_{j}$$

Donde $S_{x}$ es la matriz de varianza y covarianza de la matriz de predictores ($X$). Finalmente, la matriz de transformación $A$ tiene como columnas a cada uno de los vectores $V_{j}$. Además, $\lambda_{j}$ corresponde a la varianza o información que condensa la variable transformada $Z_{j}$.

El método de PCA permite por lo tanto “condensar” la información aportada por múltiples variables en solo unas pocas componentes.

Standard Scaler

Se estandarizan las variables y se transforman a la misma escala eliminando la media y escalando los datos de forma que su varianza sea igual a 1. Con esto se busca que se le asigne igual importancia a cada variable.

Podemos visualizar la varianza explicada por cada componente. Para ello, haremos el siguiente gráfico:

Como se puede observar, las componentes están ordenadas desde la que más varianza o información contiene, hasta la que menos. Los valores reportados en el anterior gráfico corresponden a los 𝜆𝑗 establecidos con anterioridad.

Sin embargo, generalmente se suele ver el gráfico del porcentaje de la variabilidad explicado por las primeras 𝑗 componentes. Para ello obtener dicho gráfico, ejecutaremos el siguiente código:

Vemos que con 9 componentes principales se explica el 80% de la variabilidad de los datos

Dendograma

Se crea el dendograma para una distancia de 30, usando el metodo ward y las 9 componentes principales.

Se cortan 13 clusteres los cuales se usaran en el analisis aglomerativo

Análisis de clúster Aglomerativo

Es un tipo de clúster jerárquico, en el cual el agrupamiento se inicia con todas las observaciones separadas, cada una formando un clúster individual. Los clústeres se van combinado a medida que la estructura crece hasta converger en uno solo (Amat, 2020).

5.3.2.1 Pasos del clustering aglomerativo (Amat, 2020)

a) Considerar cada una de las n observaciones como un clúster individual, formando así la base del dendrograma (hojas).
b) Proceso iterativo hasta que todas las observaciones pertenecen a un único clúster:
i. Calcular la distancia entre cada posible par de los n clústeres. El investigador debe determinar el tipo de medida empleada para cuantificar la similitud entre observaciones o grupos (distancia y linkage).
ii. Los dos clústeres más similares se fusionan, de forma que quedan n-1 clústeres.
c) Cortar la estructura de árbol generada (dendrograma) a una determinada altura para crear los clústeres finales.

Correlacion entre cluster aglomerativo y variables

DBSCAN

El tercer método es el agrupamiento espacial basado en densidad con ruido(DBSCAN). Este se encarga de clasificar las observaciones en tres tipos:

Puntos core: son aquellos puntos que cumplen con las condiciones de densidad que hayamos fijado.

Puntos alcanzables: son aquellos puntos que, aun no cumplen con las condiciones de densidad, pero tienen cerca otros puntos core.

Ruido: son los puntos que no cumplen con las condiciones de densidad y, además, en su radio no tienen otros puntos.

Para el DBSCAN se calcula la matriz de distancias entre los distintos puntos. Generalmente se utiliza la distancia Euclídea, aunque se pueden usar otras. Teniendo en cuenta los parámetros del modelo, clasifica a cada punto entre punto core, punto frontera y ruido. En este sentido, puede que salgan diferentes puntos core ya que puede haber varias zonas de densidad. Cada uno de esos puntos core pertenecerá a un clúster y se asigna los núcleos alcanzables de cada clúster al clúster. (Fernández Jauregui, s.f.)

Para este algoritmo se usa el parámetro eps: en el cual dos puntos se consideran vecinos si la distancia entre los dos puntos está por debajo del umbral épsilon y min_samples: el número mínimo de vecinos que debe tener un punto dado para ser clasificado como un punto central.

Como distancia se usa la distancia euclídea.

Con DBSCAN se tiende a agrupar los datos en un solo cluster, por lo cual se descarta este metodo ya que se busca generar posibles zonas con agrupacion de elementos de interes que puedan indicar un yacimiento minero y este metodo no realiza una discriminacion de los datos mas detallada.

Target de exploración

Mapa con las dos zonas que se proponen para realizar analisis adicionales, una en rojo entre el sector de Cochamarca y la reserva de Junín y la otro en la franja al sur este del mapa entre la zona de Huancayo y Jauja, siguiendo la rivera del rio Mantaro (puntos amarillos y magenta).

Estas zonas pueden ser de interes para la busqueda de yacimientos de sulfuros masivos e hidrotermales.

imagen.png